import_data("johnny_depp")
## Loading required package: rvest
## Loading required package: xml2
##
## Attaching package: 'rvest'
## The following object is masked from 'package:purrr':
##
## pluck
## The following object is masked from 'package:readr':
##
## guess_encoding
## Warning in rlang::eval_tidy(~as.numeric(gsub("[$|M]", "", BOXOFFICE)),
## <environment>): NAs introduzidos por coerção
filmes = read_imported_data()
Johnny Depp é um ator, músico, produtor de cinema e diretor americano muito conhecido por interpretar grandes personangens como o Capitão Jack Sparrow na franquia Piratas do Caribe, Edward Scissorhands do filme Edward mãos de tesoura, além de interpretar outros personagens famosos, como o bruxo das trevas Gellert Grindelwald em Animais Fantásticos e Onde Habitam, de 2016, e Animais Fantásticos: Os Crimes de Grindelwald de 2018, Willy Wonka em A Fantástica Fábrica de Chocolate e o Chapeleiro Maluco nos filmes Alice no País das Maravilhas e Alice através do Espelho.
Seus filmes de maior bilheteria foram a série Piratas do Caribe com um total de 4.524 bilhões de dólares, seguido pela franquia Animais Fantásticos e Onde Habitam com 1.457 bilhão, Alice no País das Maravilhas com 1.323 bilhão em receita global.Trata-se de um ator renomadisímo de Hollywood, com mais de 250 indicações a prêmios por seu trabalho, incluindo Oscars, Globo de Ouro e Screen Actors Guild.
Depp é um dos maiores e mais bem sucedidos atores de sua geração, juntamente com Brad Pitt, Will Smith, Robert Downey Jr., Tom Cruise e Leonardo DiCaprio. o artista conta com uma imensidão de filmes em seu currículo. Aqui neste post trabalhamos com uma amostra de 29 filmes coletados pelo Rotten Tomatoes.
Podemos perceber que a maioria dos filmes alcançaram uma bilheteria até 200 milhoes de dólares. Mas não foram poucos os filmes que despontaram em bilheteria, a frânquia de Piratas do caribe, rendeu uma boa grana ao Capitão Jack Sparrow.
p = filmes %>%
ggplot(aes(x = ano, y = bilheteria, label=filme)) +
geom_point(color = paleta[2], size = 4)
ggplotly(p)
O gráfico abaixo reforça a ideia de que a maioria dos filmes estrelados por Johnny Depp não obteve tanto sucesso quanto a frânquia de Piratas do caribe. O único filme que chegou próximo foi, Alice no país das maravilhas. Algo a ser considerado nesta base de dados é que o filme mais recente analisado é de 2017 e que de lá pra cá o Ator ja estrelou em outros grandes filmes que renderam bilheterias estrondosas, como por exemplo: ALICE ATRAVÉS DO ESPELHO e ANIMAIS FANTÁSTICOS E ONDE HABITAM.
filmes %>%
ggplot(aes(x = bilheteria)) +
geom_histogram(binwidth = 15, fill = paleta[4], color = "white")+
ylab("Quantidade")
Levando em consideração uma escala de 0-100, 18 dos 29 filmes citados em nossa base de dados tiveram uma avaliação positiva (considerando que positivo seria uma avaliação acima de 5). O filme com a melhor avaliação foi Deep Sea, seguido de GOnzo e Rango, que não foram filmes que renderam uma bilheteria muito alta, mas pra quem foi e assistiu, podemos ter certeza que não se arrependeram.
filmes %>%
ggplot(aes(x = reorder(filme,avaliacao), y=avaliacao, fill = paleta[4], color = "white")) +
geom_point(show.legend = FALSE)+
coord_flip()+
labs(x="Filme", y="Avaliação")
filmes %>%
ggplot(aes(x = avaliacao)) +
geom_histogram(binwidth = 10, boundary = 0, fill = paleta[4], color = "white") +
geom_rug(size = .5)+
ylab("Quantidade")
Ao analisarmos o valor apróximado das bilheterias por ano, e compararmos com o valor aproximado das avaliações por ano, podemos perceber que nem sempre uma bilheteria muito alta significa dizer que o filme foi muito bom. Em 2010 a bilheteria dos filmes estrelados por Depp foram altíssimas, nesta época os filmes Alice no país das Maravilhas e O turista eram lançados. Entretanto as avaliaçoes medianas deles não refletiram na bilheteria que tiveram. Uma possível explicação para esta situação é que os fãs da literatura de Alice estavam bastante anciosos para terem a história recontada e atualizada nas telonas do cinema, a ponto de que qualquer deslize seria o suficiente para diminuir a nota de avaliação. Outra pssível justificativa é que talvez o filme tenha sido ruim mesmo. Cabe ao cinelunático julgar.
bilheteria_ano = filmes %>%
group_by(ano) %>%
summarise(bilheteria_mediana=median(bilheteria))
avaliacao_ano = filmes %>%
group_by(ano) %>%
summarise(avaliacao_mediana=median(avaliacao))
p = bilheteria_ano %>%
ggplot(aes(x=ano, y=bilheteria_mediana))+
geom_line(color=paleta[2])+
geom_point(color="red")
p2 = avaliacao_ano %>%
ggplot(aes(x=ano, y=avaliacao_mediana))+
geom_line(color=paleta[2])+
geom_point(color="red")
filmes %>%
filter(ano == 2010) %>%
select(filme) %>%
glimpse()
## Observations: 2
## Variables: 1
## $ filme <chr> "The Tourist", "Alice in Wonderland"
ggplotly(p)
ggplotly(p2)
Para tentar agrupar os filmes em grupos, é importante perceber que as escalas de bilheteria e avaliação são bem diferentes. O espectro de bilheteria é bem maior que o espectro de avaliação. Isso pode gerar um agrupamento errado ou confuso. Logo o primeiro passo a ser feito é a normalização dos dados.
m_transformado = filmes %>%
mutate(bilheteria_log = as.vector(scale(log10(bilheteria))),
avaliacao_scaled = as.vector(scale(avaliacao)))
summary(m_transformado %>% select(bilheteria_log, avaliacao_scaled))
## bilheteria_log avaliacao_scaled
## Min. :-2.5870 Min. :-1.85100
## 1st Qu.:-0.3505 1st Qu.:-0.96059
## Median : 0.1808 Median : 0.05702
## Mean : 0.0000 Mean : 0.00000
## 3rd Qu.: 0.5830 3rd Qu.: 0.73543
## Max. : 1.4119 Max. : 1.49864
Após os dados normalizados, podemos perceber que as escalas ficaram ao menos perto uma da outra, diferente de momentos anteriores. O próximo passo é decidir em quantos grupos executar o algoritimo de K-means, dependendo da escolha, os grupos podem não ser favorecidos. Para certificar de que se fez a melhor escolha de K, utilizou-se a função de “Gap Static Calculation”, que basicamente retorna pra nós os desempenhos simulados de alguns Ks, e partir de então se torna decisão do usuário.
plot_clusgap = function(clusgap, title = "Gap Statistic calculation results") {
require("ggplot2")
gstab = data.frame(clusgap$Tab, k = 1:nrow(clusgap$Tab))
p = ggplot(gstab, aes(k, gap)) + geom_line() + geom_point(size = 5)
p = p + geom_errorbar(aes(ymax = gap + SE.sim, ymin = gap - SE.sim), width = .2)
p = p + ggtitle(title)
return(p)
}
gaps <- m_transformado %>%
select(bilheteria_log, avaliacao) %>%
clusGap(FUN = kmeans, nstart = 20, K.max = 8, B = 200)
plot_clusgap(gaps)
Com a execução do Gap Statics é possível perceber que para um K igual 5 grupos temos um valor bastante interessante. Assumindo assim esse valor, executamos o algoritimo do k-means. Que retornar o resultado abaixo.
set.seed(12345)
n_clusters = 5
# O agrupamento de fato:
cluster = m_transformado %>%
select(bilheteria_log, avaliacao_scaled) %>%
kmeans(centers = n_clusters, nstart = 20)
agrupado = cluster %>%
augment(m_transformado)
#p = agrupado %>%
# ggplot(aes(x = avaliacao_scaled, y = bilheteria_log, color = .cluster)) +
# geom_point(size = 3)
p1 = agrupado %>%
ggplot(aes(x = avaliacao, y = bilheteria, color = .cluster, label=filme)) +
geom_point(size = 3)+
scale_y_log10()
ggscatter(agrupado, x="avaliacao", y="bilheteria", color=".cluster")+
stat_chull(aes(fill = .cluster), alpha=0.3, geom="polygon")+
xlab("Avaliação")+
ylab("Bilheteria")
ggplotly(p1)
Podemos perceber a presença de 5 grupos de filmes do Johnny, vamos chama-lós de:
Capitão Jack Sparrow : Grupo em Azul. Neste grupo é possível perceber que a maioria dos filmes é da frânquia Piratas do Caribe, que rendeu ao nosso ator gandes bilheterias, no papel do inusitado e querido Capitão Jack Sparrow.
Luz, Câmera, Fantasia e Animação: Grupo em Verde. Grandes filmes fantasiosos e animações são encontrados aqui ! Rango, foi uma animação que arrancou do público uma ENORME quantidade de avaliações extremamente positiva, numa escala de 0 a 100, sua avaliação foi de 88 pontos, mesmo não redendo uma grande bilheteria. Outro grande filme deste grupo é Charlie e a Fábrica de Chocolate, trata-se de uma recriação do filme A fantástica fábrica de Chocolate, e no papel do Ilustríssimo Willy Wonka, Depp atuou num mundo absurdamente fantasioso, alcançando um bilheteria bastante alta bem como Avaliação também.
Drama e Mistério: Os filmes do grupo em Rosa são voltados mais para os genêros de Drama e Mistério, pode-se dizer que são filmes bem neutros, com avaliações bem na media e bilheterias semelhante.
Dr. Will Caster: Grupo em Amarelo. Estes filmes marcam a serie de “piores” filmes com particiáção do Johny Depp, com avaliações terriveis e bilheterias bem baixas, deixaram bastante a desejar.
“Real”" History: Grupo em Vermelho. Este grupo possui filmes que contam histórias ou biógrafias, não são tão conhecidos e não renderam tanta bilheteria, mas possuem avaliações incríveis.